読話クラブは、相手の口の動きを読んで会話する『読話』を身につけるためのトレーニングアプリとして開発しました。日本語の音と口の動きの関係を覚えたり、単語の発話動画を見たりしながら、口の動きを読み取るトレーニングができます。
読話クラブのトップ画面
主に、難聴者やその家族、声による会話が難しい人と接する方々などにご利用いただき、コミュニケーションに役立てていただくことを想定しています。このアプリの開発には、京都市中途失聴・難聴者協会や千葉県中途失聴者・難聴者協会の方々からご協力もいただきました。
読話クラブは、iPad専用のアプリとしてApp Storeからダウンロードできます。アプリの機能は、サポートサイトをご覧ください。ここは情報工学科のブログですので、少し技術的なことをご説明します。
このアプリでは、日本語の仮名文字から発話動画を生成していますが、内部では2段階の処理を行っています。最初は、仮名から口形の並びに変換します。ここで言う口形とは、日本語の「あいうえお」の母音と閉じた口の形を指します。これらを基本口形と呼んでいます。例えば、「あつぎ」(厚木)ですと、「あうい」になります。
次に、口形の並びから発話動画を生成します。発話動画の生成には、Google Researchが発表した「FILM: Frame Interpolation for Large Motion」というフレーム補間技術を用いています。フレーム補間とは、2つの画像の間を生成するAI技術です。動画のフレーム(動画は静止画像の連続で構成されていて、その1枚1枚をフレームと呼びます)間の画像を生成することで、なめらかな動画になったりスローモーションの動画になったりします。読話クラブでは、事前に撮影した基本口形の2枚の画像に繰り返しフレーム補間を適用することで、口形を変形させる画像(動画)を生成しています。
最終的に仮名から変換した口形の並びに沿って中間画像を生成し、発話速度等に応じて適切なフレームを表示させることで、発話動画を生成しています。従いまして、事前に単語の発話を録画したようなデータは入っていません。ただし、アプリ内で口形の中間画像を生成すると時間がかかってしまうことと、効率も悪いため、事前に中間画像を生成しておき、アプリ内に入れてあります。
今後も、研究成果の組み込みや機能拡充を図っていきます。